搜尋引擎的一般結構

2023 iThome 鐵人賽

自我挑戰組

多媒體：影像處理系列第 9 篇

15th鐵人賽

kellyhung

2023-10-17 01:23:22

546 瀏覽

分享至

通過學習文本搜索引擎，我們可以抽象出一般搜索引擎的結構。通常，一般的抽象方法涉及將事物的非關鍵特征剝離出來，僅保留其最本質的特征。對於現有技術條件下的搜索引擎，必須先生成索引函數庫，然後在其上執行搜索查詢。如下所示，首先需要對輸入數據進行一定的前置處理，以便進一步分析。接下來，將文字搜索引擎的詞法、語法分析等語言處理階段抽象為對輸入數據的特征分析，逐個分析出的詞就是構成文件特征向量的基本元素，而反向索引函數庫則是特征和文件之間的對應關系集合。對於查詢數據，我們也需要提取其特征，然後計算其特征向量與索引函數庫中所有特征向量的相似度，最後返回規定數量的相似結果。

                         特徵索引庫
                             ↓
    資料->預先處理->特徵讀取->索引讀取
                             ↓
 查詢資料->預先處理->特徵提取->相似度計算
                             ↓
                          結果返回

參考資料:深智數位《CV+AI自己動手完成圖像搜尋引擎》